其他
【玩转stata秘籍】高手快速生成“分组变量”,其实您也能做到!
推文作者:石河子大学 尹兴强及其团队
大家在阅读文献的时候,经常会看到作者对变量进行分级处理,如decile(十分级)处理。其基本原理很简单,就是先将变量从小到大排列,然后选取所定的分位数为节点,将整体数据分组,从小到大依次取值。以三分级为例,先将数据从小到大排列,然后分别找到33%分位和67%分位数,然后将小于33%分位数的全部取值为1,33%至67%的取值为2,大于67%的取值为3。我们要进行变量分级处理的时候,可以使用官方xtile命令,以十分级为例(数据为伍德里奇《计量经济学导论》wage2):
大家可能注意到里面似乎每组的数据量并不相等,这是因为xtile严格按照先确定分位数,然后分组的顺序来处理,这导致某些观测值相等的话会被分到同一组,使得每组数量可能并不相同。极端的例子,假如某个变量中有大量的0值,最终分级的结果可能是第1组的数量比重非常大,这显然不是我们所希望。因此,通常情况下,并不推荐使用官方命令xtile,而是使用第三方命令quantiles,它由Rafael Guerreiro Osorio编写,会将每组观测数自动处理好,延续上述的例子,以下是quantiles命令处理的结果:
会计学术联盟公众平台编辑部
2016年4月12日